DAgger algorithm - 🍣YuWd(和田唯我)のメモ🍣

DAgger algorithm

#模倣学習 #強化学習

https://gyazo.com/48b3fd234d5366fec45ccbae2bc3b9b3

状態: $ s \in S

行動: $ a \in A

方策: $ \pi

$ \pi : S \rightarrow A と定義

累積的にデータセットを増やしながら方策を学習していく感じ

誤差が少ないらしい